1. データ分布の要約
https://gyazo.com/4f7dfd91756d579cff6ea820ee6ff329
1.1. データの整理
測定によって割り当てられた数値
測定値の集まり
心理学的知覚時間の実験
データの分析は、一つ一つの測定値を丁寧に観察することから始める
ここでは主観的時間が測定値
30秒以上が15回、30秒未満が5回
測定値の数を$ nとするとデータは以下のように表現する
$ x = (x_1, x_2, \cdots x_i, \cdots x_{n-1}, x_n)
$ iは添え字といい、観測対象を区別するための数字
$ x_iは、ここでは、$ i番目の測定値
知覚時間の実験では$ n = 20であり、データは以下のように表現する
$ x = (31.43, 31.09, 33.38, \cdots 31.57)
1.1.1. 図的要約
データの入力ミスのチェックも行いながら、データを観察することは大切
どのあたりにどれくらいのデータが観察されているかの様子
階級に観察された度数をまとめた表
観察された測定値の数
測定値の区間
階級を代表する値の呼び名
通常は階級の真ん中の値
その階級以下の度数の和
累積度数を$ nで割った値
度数分布表を観察すると、たとえば以下のようなことがわかる
$ 20\%のデータが階級値$ 32秒であること
$ 75\%のデータが階級値$ 32秒以下であること
縦軸に度数、横軸に階級あるいは階級値を配した統計グラフ
分布の様子を視覚的に理解するために有効
ヒストグラムが示しているのはデータの唯一の視覚的イメージではない
階級と階級幅を変えると、ヒストグラムの印象も変わる
1.1.2. 数値要約
度数分布表やヒストグラムはデータの有する詳細な情報を有しているが、手軽さに欠ける
そこで、データの特徴を要約的に記述するための数的な指標を利用する
$ 統計量 = f(データ)
データの性質を縮約するための統計量
要約統計量でデータの特徴を要約すること
データ全体の特徴を1つの数値で表す場合には代表値を利用する
すべての測定値の合計を$ nで割る
$ \overline{x} = \frac{1}{n}(x_1+x_2+\cdots+x_i+\cdots+x_{n-1}+x_n)
$ \overline{x}はえっくすばーと読む
「知覚時間」データの平均値は$ \overline{x} = 31.04秒であった
これは分布の中心的位置に関する目安
中央値と最頻値は後述する
測定値が分布の中心的な位置から平均的にどれほど散らばっているかに関する要約統計量
偏差を2乗した値の平均
個々の測定値から平均を引いたもの
偏差の平均を計算しても散布度にはならない
偏差には負の値も含まれるので、偏差の2乗を計算した値の平均を使う
$ s^2 = \frac{1}{n}((x_1 - \overline{x})^2 + \cdots +(x_i - \overline{x})^2 + \cdots + (x_n - \overline{x}^2))
「知覚時間」データの分散は$ s^2 = 4.28
「知覚時間」データの標準偏差は$ s = 2.07秒
平均から平均的に約$ 2秒測定値が散らばっている
さらに高度な要約統計量
分布の歪みを表現する
分布の裾の重さを表現する
平均や分散や標準偏差のように、データの関数の平均値の形式で求める統計量
ソートした情報を利用して求める統計量
データを小さい順に並び替えること
外れ値の影響を受けにくいという長所
「知覚時間」データでは最小値は$ 25.39秒、最大値は$ 35.40秒
$ x^n = \begin{cases} \frac{n+1}{2}番目の測定値 & nが奇数の場合 \\ \frac{n}{2}番目と\frac{n}{2}+1番目の測定値の平均 & nが偶数の場合\end{cases}
中央値は位置に関する分位系の要約統計量
この場合は$ n = 20であり、データ数は偶数だから中央値は$ 10番目と$ 11番目の測定値の平均、$ 31.26秒($ = \frac{(31.09 + 31.43)}{2})
その測定値の下方に全データの$ \alpha\%があるような値
たとえば30%点は30.15秒であり、70%点は32.33秒
25%点
75%点
2つの%点の区間を考察することによって、データの散布の様子を知ることができる
最大値と最小値によって構成される区間(ここでは$ [25.39, 35.40] )にはすべての測定値が含まれる
両側$ 10\% のデータを捨てて構成される区間(ここでは$ [28.96, 32.68] )には全体の80%の測定値が含まれる
最大度数を有する階級値
最頻値は中央値と同じように外れ値の値を受けにくいという長所
ヒストグラムの印象と同様、階級・階級幅を変化させると、連続的な変数の最頻値は変化することがあるという短所
要約統計量がデータから計算されたことを強調し、次節で導入する理論分布のそれと明確に区別したい場合 1.2. 経験分布と理論分布
度数分布やヒストグラムで示されるデータ分布は経験的(客観的)な事実である
経験的事実を観察することは大切であるが、それだけでは推論が先に進まない
1.2.1. 正規分布
連続的な変数の分布の近似として最も頻繁に利用される理論分布
平均値の付近に度数が大きく、両側に離れるに従って、度数が小さくなるデータを記述するのに適している
確率密度を与える関数
正規分布の密度関数は以下のように定義される
$ f(x|\mu, \sigma)= \frac{1}{\sqrt{2\pi\sigma}}\exp[\frac{-1}{2\sigma^2}(x-\mu)^2], -\infty \leq x \leq +\infty
$ |はgivenと読む
$ \expはexponentと読む
$ \exp[a] は$ e^aである
$ e の肩に乗せると小さくなる場合には$ \exp[a] と表記する
一次変換: 定数を足して、0でない指数をかける
$ z = \frac{x-\mu}{\sigma}
標準化された$ zの密度関数は以下のようになる
$ f(z|\mu = 0, \sigma =1) = \frac{1}{\sqrt{2\pi}}\exp[\frac{-1}{2}z^2], -\infty \leq z \leq +\infty
$ xが正規分布に従っていることを$ x \sim N(\mu, \sigma)と表現する
ここで$ \muを平均、$ \sigmaを標準偏差、$ \sigma^2を分散という
標準正規分布の平均は$ 0、標準偏差は$ 1である
理論分布のそれであることを強調したいとき
理論分布の特徴を定めている数的指標
知覚時間の一つの測定値である$ 31.43秒は、少数第3位を四捨五入した値であり、小数点以下ずっと測定したらピタリと$ 31.43秒となる確率は$ 0
重さのような連続的な測定値は、特定の点そのものが観察される確率を定義できない
データが観察される確率は点ではなく区間に付与される
下限(この場合は$ -\infty)から$ xまでの確率を与える関数
分布関数には$ xよりも小さい値が観察される確率を与えるということ
正規分布の分布関数は以下のように表記する
$ F(x|\mu, \sigma)
たとえば、平均が$ 31.04であり、標準偏差が$ 2.07である正規分布の密度関数と分布関数は、それぞれ$ f(x|\mu = 31.04, \sigma = 2.07)と$ F(x|\mu = 31.04, \sigma = 2.07)のように表記する
データがこの分布に従っているとすると、$ 30秒以下のデータが観察される確率は、分布関数を評価し、以下のように計算できる
$ F(30|\mu = 31.04, \sigma = 2.07) \simeq 0.31
3割0分7厘ほど。$ 30.7\%
下限からではなく、任意の区間でデータが観察される確率は2つの分布関数の差で表現する
たとえば、次に測定する主観的な$ 30秒が、$ 30秒を超え$ 31秒以下である確率は以下のように計算できる
$ F(31|\mu = 31.04, \sigma = 2.07) - F(30|\mu = 31.04, \sigma = 2.07) \simeq 0,49 - 0.31 = 0.18
18.5%ほど
理論分布を利用すると特定区間で測定値が観察される確率を計算できるだけではなく、逆に特定の確率で測定値が観察される区間を求めることができる
特定の確率には$ 95\%が利用されることが多い
正規分布の場合
$ F(\mu + 1.96\sigma|\mu, \sigma) - F(\mu-1.96\sigma|\mu, \sigma) \simeq 0.95
標準正規分布の場合
$ F(1.96|\mu=0, \sigma=1) - F(-1.96|\mu=0, \sigma=1) \simeq 0.95
したがって、「知覚時間」のデータに限らず、一般的に、$ 95\% 予測区間は$ [\mu-1.96\sigma, \mu + 1.96\sigma] である
推定値として、母平均には標本平均を利用し、母標準偏差には標本標準偏差を利用すると、「知覚時間」の95%予測区間は$ [26.99, 35.10] となる
分布関数を参照すると、95%に限らず、何%の予測区間でも構成できる
経験分布と比較して、理論分布である正規分布は、平均と標準偏差というたった2つの母数だけで分布の状態が決まり、手軽で便利
https://gyazo.com/90eff3bd70c61e0964f272c9f382264b
左図は確率密度関数で$ -1.96 \leq 1.96に相当するこの曲線の面積は約$ 0.95である
確率と面積が一致すると便利なので、正規分布に限らず、確率密度関数の総面積は$ 1
右図は確率分布関数で、$ F(-1|0, 1) \simeq 0.16, F(0|0,1) = 0.5, F(1|0, 1) \simeq 0.84であることが示されている
正規分布の中央値と最頻値は平均$ \muに一致する
理論分布の最頻値は、関数のピークを与える点である
分布関数は、上記の右図のように
$ F(+\infty|\mu, \sigma) = 1であり、$ xの増加に伴って限りなく$ 1に近づく
1.2.2. 一様分布
区間$ [\alpha, \beta] で均等に測定値が観察される連続的変数の理論分布
一様分布には、連続型と離散型がある。今後特に混合の恐れのない場合には、連続一様分布を単に一様分布という
区間$ [\alpha, \beta] の一様分布の確率密度関数は、2つの母数$ \alpha, \betaを用いて以下のように定義される
$ f(x|\alpha, \beta) = \frac{1}{\beta - \alpha}, \alpha \leq x \leq \beta
$ xが一様分布に従っていることを$ x \sim U(\alpha, \beta)と表記する
一様分布の分布関数は、正規分布の分布関数と異なり、以下のように簡単な式で書くことができる
$ F(x|\alpha, \beta) = \frac{x-\alpha}{\beta - \alpha}
たとえば30分おきに発射する列車があったとする。
この駅にデタラメに到着した人が、列車に乗車するまでの時間$ xは、範囲$ 0から$ 30の連続一様分布に従うと仮定できる
確率密度関数
$ f(x|0, 30) = \frac{1}{30-0}
5分から10分待たされる確率
$ f(10|0, 30) - f(5|0,30) = \frac{10-5}{30-0} = \frac{1}{6}
https://gyazo.com/ae5a79c3d0140005a068cd23c3e225d7
左図は一様分布の確率密度関数$ f(x|0, 1)
区間$ [0,1] において、同じ高さ$ 1.0の確率密度を有する
右図は左図に相当する確率分布関数$ F(x|0,1)
一様分布の平均と標準偏差はそれぞれ以下であることが知られている
$ 平均 = \frac{\beta + \alpha}{2}
$ 標準偏差 = \sqrt{\frac{(\beta - \alpha)^2}{12}}
駅の例
平均的に$ 15分($ =\frac{(30+0)}{2})待てば、列車に乗車できる
待ち時間の平均的なばらつきは、標準偏差を計算して、$ 8.66分($ \simeq \sqrt{\frac{(30-0)^2}{2}})
一様分布の中央値は平均値に一致する
また、一様分布の最頻値は区間$ [\alpha, \beta] 内の任意の点
すべての点が最頻値
1.2.3. 理論分布について
理論分布には2種類の使用法がある
本章では正規分布は「知覚時間」の分布として例示し、一様分布は列車の待ち時間の分布として例示した
理論分布はデータ生成分布としてばかりでなく事前分布としても利用される 事前分布はデータ生成分布の母数の分布であるが、それに関しては後続の章で詳述する
「知覚時間」のデータは正規分布に従っているのだろうか?
$ nの増加に伴ってヒストグラムは図1-2の左図(正規分布)に近づくのだろうか?
同一の確率分布から互いの独立な測定値の標本平均の分布は、元の確率分布の形によらず、$ nの増加に伴っていくらでも正規分布に近づく
生の測定値そのものの分布が$ nの増加に伴って正規分布に近づくことを意味しない
正規分布は測定値が数万あろうと、それ以上であろうとたった2つの母数で分布の状態を完全に確定するから、現実の度数分布表とピタリと一致することは期待できない
データ分布より、少数の母数で表現される理論分布の方が簡潔な表現として便利だから方便として利用しているのである